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Влияние размера обучающей выборки 
на обобщающую способность метрических 
алгоритмов классификации 


В работе предлагается поход, обеспечивающий оценку влияния уменьшения размера классов базы данных 
на уровень распознавания в случае использования АММ метрических классификаторов, а также дает 
возможность определения по данной выборке оптимального значения А. Проведено симулятивное 
моделирование результатов влияния уменьшения обучающей выборки на результаты распознавания. 
Полученные результаты могут быть использованы для дальнейшего формирования обучающей выборки 
и её коррекции. 


Введение 


На сегодняшний день метрические алгоритмы классификации являются одни- 
ми из самых распространенных при проектировании практических целевых систем 
распознавания (СР). Среди таких систем часто встречаются биометрические СР. Для 
метрических алгоритмов классификации характерна простота настройки и доста- 
точное быстродействие. 

В целом разработка алгоритмов классификации является отдельной и сложной 
задачей [1-3]. Поскольку построение СР включает этапы генерации признаков, их 
селекции, построения классификаторов и их оптимизации в зависимости от выбран- 
ных признаков, формирования доверительного интервала принятия решения и опре- 
деления его достаточного размера, формирования базы эталонных объектов и т.д. [1], 
[4-7], то в большинстве случаев используют метрические алгоритмы классификации 
[21, [3], [8]. Среди них чаще всего рассматривают правило ближайшего соседа (пеагезЕ 
пеюНБог, ПММ), реже — правило К ближайших соседей (К пеагезё пееНбогз, АММ) и 
совсем редко — взвешенный АММ классификатор [3]. Метод парзеновского окна и 
метод потенциальных функций в таких системах практически не используют. Одним 
из главных недостатков этих алгоритмов является то, что выборку необходимо со- 
хранять полностью, а время распознавания прямо пропорционально длине обучаю- 
щей выборки. Поэтому и возникает необходимость в разработке подходов, которые 
дали бы возможность эффективно уменьшить обучающую выборку так, чтобы при 
этом уровень распознавания был не менее заданного согласно техническому зада- 
нию на разработку СР. Для СР сокращение обучающей выборки означает умень- 
шение размерности классов базы данных. При этом необходимо обязательно провес- 
ти стратификацию (зваййсайоп) классов. Итак, далее установим, как влияет уменьшение 
размерности классов на достоверность классификации при помощи АММ алгоритма. 

Кроме того, что ожидаемые результаты моделирования пригодны для оценива- 
ния влияния размера обучающей выборки на результаты распознавания, они также 
могут использоваться для формирования такой обучающей выборки, которая бы по- 


«Штучний 1нтелект» 42009 349 


Капустий Б.Е., Таянов В.А. 
7К ы 


зволила минимизировать эффект переобучения. Данный поход позволяет провести 
предварительную оценку выборки, её потенциальных возможностей обучения и кор- 
ректности. После его предварительной апробации необходимо осуществить исключение 
малоинформативных и искажающих объектов из обучающей выборки. 

Постановка задачи. Пусть Х’- пространство объектов (оБ]ес{ 5расе); У — мно- 


жество имен классов (с1аз$ пате зе1); у’: Х > У -— целевая функция (фагоей КапсНоп), 
значения которой известны лишь на объектах конечной обучающей выборки длины 
1: Х' = (ху) ХХУ, у=у"(х,) [3]. В базе данных существуют классы эталонов 
(с1а55 райеги$) С., 1=Ьи, причём 5, = С, | — размеры классов. Предполагается, что 
размеры 5, всех классов одинаковые и равны 5. Поскольку существует выборка конт- 


рольных образов И, подающихся на распознавание, то общее количество образов, 
принимающих участие в процессе распознавания, равно пх5+ | П |. Пусть оцененная 


частота ошибок (еггог Яедиепсу) алгоритма классификации а = и(Х') на обучающей 


1 
выборке Х'<Х": у(а,И) = 2 [а(и) = у’ (и)|, где запись хе ИЦ означает, что 
объект относится к контрольной последовательности, а запись [а(и) = у" (и)] должна 
пониматься как функция индикации несовпадения ответа, даваемого алгоритмом 
а(и), и правильного ответа у’(и) для этого объекта. Задача состоит в оценивании 


г 1 
величины У (а,0) = —— 
| и | хЕЦ 


крытия (тЮгтабоп с1а5з соуегасе гефасНоп) |С,| классов-эталонов, где а = и(Х') — 


[а(и) = у’(и)] при понижении информационного по- 


алгоритм, построенный на основании выборки размера Г. В качестве алгоритма 
классификации используется алгоритм АММ. При такой общей постановке задачи 
наиболее пригодным подходом к её решению является комбинаторный подход. Оче- 
видно, что в каждом конкретном случае понижение информационного покрытия 
классов (шЮгтайоп с1а5$ соуегасе гедисйоп) может проводиться не обязательно 
оптимальным образом, однако общая статистика всех возможных понижений клас- 
сов и результатов таких понижений должна дать ответ на вопрос об эффективности 
информационного покрытия классов-эталонов в целом. 

Алгоритм ближайшего соседа. Представим данные, подающиеся на класси- 
фикатор а, в виде двоичной последовательности {0,1}, посортированной по минимуму 
расстояний объектов базы данных от тестового объекта, где | ставятся в соответствие 
образам, поддерживающим правильное распознавание (образы своего класса), а 0 — 
образам, мешающим такому распознаванию (образы чужих классов). Пример такой 
последовательности подан на рис. 1. 


ИИ 00011100111100011...0001111... 
О я м 


т Я т № тз № т, и 


{т} 
Рисунок 1 — Модель распознавания при задании начального размера класса 
в виде ДВОИЧНОЙ последовательности 


Из приведенного рисунка видно, что последовательность образов, поддер- 
живающих распознавание, имеет размерность /+А=5. Однако различные образы 
существенно отличаются друг от друга по возможностям этой поддержки. Действи- 
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тельно, при использовании ПММ классификатора удаление [-—1 образов из класса- 
эталона не изменит результатов распознавания. С другой стороны, какой бы длинной 
ни была последовательность из А образов, она не сможет поддержать распознавание 
при отсутствии стратегической последовательности размером / и присутствии последо- 
вательности размером т. 

При понижении размера обучающей выборки необходимо учитывать тот факт, 
что если последовательность размером / присутствует в начальном классе, то в классе 


с меньшим информационным покрытием 5” она может исчезнуть, и наоборот, если её 


не было, то может появиться, однако с меньшим размером Г. 

Рассмотрим возможности ПММ классификатора. Определяющим преимущест- 
вом этого классификатора является простота реализации, а к недостаткам можно от- 
нести следующие [3]: 

— неустойчивость к погрешностям, созданным выбросами в обучающей выборке (вы- 
бросом называют объект определенного класса, находящийся в окружении объектов 
чужих классов); 

— полную зависимость алгоритма от метрики между объектами и отсутствие парамет- 
ров для настройки по обучающей выборке методами скользящего контроля или иными. 
— низкое качество классификации. 

Несмотря на указанные недостатки, ПММ классификатор может иметь сущест- 
венно лучшую устойчивость к эффекту понижения размера обучающей выборки. 
Это связано с тем, что данный классификатор менее чувствительный к размеру клас- 
сов, чем АММ. 

Итак, возможны два случая: начальное распознавание правильное либо непра- 
вильное, и необходимо определить вероятность его успешности после понижения 
размера обучающей выборки. То есть для первого случая необходимо определить 
вероятность того, что распознавание останется правильным, а для второго - вероят- 
ность перехода распознавания из категории неправильного в категорию правиль- 
ного. Представим вероятность правильного распознавания при применении ПММ 
классификатора как отношение событий, поддерживающих успешное распознава- 
ние, к общему количеству событий: 

С -С; = К (5-5°)! аа 


Р(К,,5) = С ее (1) 


1, вобратном случае. 


При вычислении вероятностей (1) учтено, что если К<5’ и начальное распо- 
знавание было правильным, то понижение размера обучающей выборки не приведет 
к ухудшению результатов распознавания, то есть Р(Ё < 5' | Р(5) =1) =1. Выражение (1) 
определяет вероятность того, что распознавание будет успешным независимо от 
того, каким образом был уменьшен размер обучающей выборки для своего и чужих 
классов. Таким образом, эта вероятность является оценкой сверху по отношению к 
точному (в смысле комбинаторики) значению вероятности правильного распознава- 
ния. Сам принцип оценок сверху вероятности успешного распознавания состоит в том, 
что вычисление точного значения соответствующей вероятности требует применения 
многошагового итерационного процесса. 

Уточнить значение вероятности (1) можно путем введения еще одной оценки 
сверху вероятности того, что перед последовательностью {А} после понижения размера 


обучающей выборки базы данных не будет находиться последовательность Ц) т,‚}, 1 <. 
г 
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После исключения из модели (рис. 1) стратегической последовательности она 
трансформируется к такому виду: 


{кт} 
Рисунок 2 — Модель распознавания в виде двоичной последовательности при {1} = © 


Таким образом, задача сводится к определению вероятности успешного распо- 
знавания после понижения размера обучающей выборки для случаев, когда начальное 
распознавание было неправильным. Эти вероятности вычисляются и раз для пар 


последовательностей {т,,К, } 1=1п. Итак, на данном этапе исходной последователь- 
ностью из всех единиц будет последовательность размера К. 
Определение. Показателем выживания подпоследовательности {т.к} явля- 


ется вероятность того, что в результате всех возможных комбинаций вхождений 
объектов из этой подпоследовательности в другие в ней останется хотя бы один объект 
из исходной подпоследовательности. Указанную вероятность можно записать в виде: 
С в. 
5—т; АК; * *. 
Ртьк,=9) == 1 ‚К-Е 25 т-т >25; 


е О. (2) 


1,в обратном случае. 


Если все образы из своего класса в результате их сортировки по величине 
расстояний от тестового образа попали в пределы списка {т,^}, то выражение (2) 
определяет вероятность того, что в этом списке будут находиться такие образы из 
своего и чужих классов, при которых распознавание пройдёт успешно. Эта вероят- 
ность вычисляется рекурсивно-итерационным способом на основании подпоследо- 
вательностей {^,,т,}: 


Р(П О} = ©, т} =©)=Р(1 =, {в} *©)Р(т}=@)= 


* * 


5 5 

5—т, СА * * 
=—1 == Ара НЙ, 

5 5 

Ск С; 


Р( {1} = 0,4} = 9, {2} = бт} =, {т} =6)= 
=Р(1} =, {в} я ©} = @)Р(т}=@ т} =) = 


5* 5” 
ы. Е —т> 1 ие: —^> 
С [в 


5 


(3) 


‚К (и + )>5°,т- (т +то)>5°; 


Ро я Оита =] = Рыб) рту =) = 


* * 


5 5 
Ут, Е 
ое Г А-У 55, т-У т; > 5". 
С ©. р р 
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В формулах (3) значения и определяются условиями 5 -—/-— 3 К>5° Та 5- з т >25’, 


поскольку все дальнейшие вероятности Р(:) равны 1. Произведение всех вероятностей (3) 
является глобальной вероятностью правильного распознавания. 

Алгоритм А ближайших соседей. Представим результаты распознавания подоб- 
но тому, как они были представлены для ПММ случая, то есть в виде двоичной после- 
довательности. Пример такой последовательности показан на рис. 3. 


11111111110001111111110000011100... 
О Я ОЙ еее, 


Г т 5 т> 3 т 
Рисунок 3 — Результаты распознавания в виде двоичной последовательности 


При использовании АММ классификатора важно, чтобы среди К ближайших 
соседей было относительное либо абсолютное большинство образов своего класса 
среди других образов. Рассмотрим более простой случай, предусматривающий отно- 
сительное большинство. Успешная работа АММ классификатора состоит в том, что для А 
ближайших соседей выполняется условие 


л > (я! 1=123.., (4) 


где [м — группы, образующиеся после понижения информационного покрытия 
1 1 


классов. Под группой понимается однородная последовательность элементов. В после- 
довательность (рис. 3) входят образы всех классов, хотя в общем случае однозначного 
соответствия между количеством групп и количеством классов не существует. Если 
рассматривать лишь случай нечётных значений А в АММ классификаторе, то исключа- 
ется неоднозначность классификации, наблюдаемая при чётных значениях К и равенст- 
ве голосов за различные классы. 

Оценим эффект от понижения информационного покрытия классов при исполь- 
зовании АММ классификатора. Примем, что размеры всех суженных классов одина- 
ковые и равны 5’. Для АММ классификатора, в отличие от ММ, не имеет такого 
принципиального значения последовательность первых образов своего класса. Поэтому 
произвольную последовательность образов своего класса можно обозначить как [. 


ва К 
Рассмотрим сначала случай 5 = ЕМТ Е +1. Определим вероятности того, что 


среди последовательности образов своего класса заданной длины будут выбраны 
комбинации из 5” образов. Такие вероятности носят доверительный характер и харак- 


теризуют степень покрытия несжатого класса последовательностью из (1 образов, 


1 


среди которых выбирается 5’. Кроме них, найдём также вероятности того, что не 
будут выбраны соответствующим способом определённые образы из чужих классов. 
Вероятность правильной работы АММ классификатора является произведением этих 
двух вероятностей. 
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Обозначим вероятность ошибочной классификации, обусловленной образами 
чужих классов, для соответствующих групп т, как 4,: 


вы |; вы 


4 = Из + т, |> вт) + | 
р (5) 
= Ра + ,, |+ т, > вмт(&) =}. 
: [* 
а, =Р шй |]т, |+|)т„.‚||> ЕМТ - +1... 
р 1 
Вероятность 4, для каждого из значений доверительной вероятности равна 
©. 
[ты 
4; = с: (6) 
Соответствующую доверительную вероятность можно представить в виде: 
©. 
1 
Р.Р =. ©) 
С, 
Итак, вероятность успешной работы АММ классификатора равна 
Ге с. О в: 
| | (1% [ее ) [т 
В. |1 ]ти |= Рав == С я (8) 
: 1 1] г ы ь С. С. ( С} 
[* 
При 94 =0и (], < ЕМТ 5 +1 эта вероятность составляет 
© 
| ий 
В |]т,| < ЕМТ р +1 Ре ОЕ (9) 


ь в К : 
Рассмотрим второй случай ЕМГ 5 +1<5 и определим для него вероятность 


ошибочной классификации, обусловленной образами чужих классов: 


5*— 


С! С 
_ рем [ен ть ь ра 
‚= - У] т,.;|> ЕМТ| > |+1. (10) 
С: ми 2 


354 «Искусственный интеллект» 472009 


Влияние размера обучающей выборки на обобщающую способность... 7К 


Вычислим доверительную вероятность Для произвольной последовательности 
из образов своего класса: 


р (11) 


Вероятность успешного распознавания при применении АММ классификатора 
определяется произведением вероятности (11) и дополнения к вероятности (10). 


* 


5—1 


С] с- 
ивы (0 0 
(12) 

5—1 на 

У С С У с сы 
д-вмт[ м и ии унЕм( м [ин э= [ин 

[69 
Эта вероятность для ошибки 4, = 0 составляет: 
р и 
К =вм (+ (1 = 

в" «Ем р (13) 


Итак, при ЕМТ ем =5’ вероятность правильного распознавания для АММ 


классификатора вычисляется по формуле (8), а при ЕМ 1] +1<5’ — по формуле (12). 


Результаты симулятивного моделирования. Было проведено моделирование 
процесса распознавания с разными последовательностями образов своего и чужих 
классов для ПММ и АММ классификаторов в случае относительного большинства. 
Моделирование использовано для оценивания результатов работы системы распо- 
знавания лиц людей [9], [10]. В связи с этим начальный размер классов был принят 
равным 18. 

На рис. 4, 5 представлены результаты моделирования влияния уменьшения раз- 
мера обучающей выборки на вероятность правильного распознавания для ПММ класси- 
фикатора. На рис. 4 показана зависимость доверительной вероятности правильного рас- 
познавания от размера последовательности образов своего класса и размера классов 
базы эталонов. Как видно из рисунка, доверительная вероятность уменьшается при 
уменьшении размера эталонных классов и последовательности образов своего класса. 
На рис. 5 изображена зависимость вероятности правильного распознавания от размера 
последовательностей образов своего и чужих классов в случае их попарного разде- 
ления. Моделирование проводилось следующим образом. Формировалась последо- 
вательность переменного размера из образов своего класса, а к ней периодически 
прибавлялось по одному образу из чужого класса, что привело к формированию сово- 
купной переменной последовательности из образов своего и чужого классов. Для каж- 


«Штучний 1нтелект» 42009 9 


Капустий Б.Е., Таянов В.А. 
НЫНЕ ВЕНА 


дой такой последовательности и соответствующего размера класса вычислялась 
вероятность правильного распознавания. Из рисунка видно, что увеличение после- 


довательности из образов чужого класса приводит к уменьшению вероятности пра- 
вильного распознавания. 


Рисунок 4 — Доверительная вероятность — Рисунок 5 — Вероятность правильного распо- 
правильного распознавания как функция  знавания как функция размера классов базы 
размера классов базы эталонов (ось х)и эталонов (ось х) и размера последователь- 
размера последовательности образов сво- ности образов своего и чужих классов (ось у) 


его класса (ось у) для ПММ классифика- для ММ классификатора 
тора 


Рисунок 6 — Доверительная вероятность Рисунок 7 — Вероятность правильного распоз- 
правильного распознавания как функция навания как функция размера классов базы 


размера классов базы эталонов (ось х) эталонов (ось х) и размера последова- 
и размера последовательности образов тельности образов своего и чужих классов 
своего класса (ось у) для АММ класси- (ось у) для АММ классификатора при 
. [4 5 [* 
фикатора при 5’ = ЕМТ - +1 5 =ЕМТ _ +1 


На рис. 6, 7 представлены результаты моделирования влияния уменьшения раз- 
мера обучающей выборки на вероятность правильного распознавания для КММ клас- 


сификатора в случае, когда ЕМТ |] +1=5°. 
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На рис. 6 показана аналогичная к рис. 4 зависимость. Как видно из рисунка, 
доверительная вероятность уменьшается при увеличении числа ближайших соседей. 
Результаты, изображённые на рис. 7, указывают на то, что вероятность правильного 
распознавания уменьшается при увеличении размера класса и последовательности 
образов чужого класса. 


400 


Рисунок 8 — Доверительная вероятность правильного распознавания как функция 


размера классов (ось х) и значения ЕМТ (=) +1 (ось у) 


На рис. 8, 9 приведены результаты моделирования для случая КММ классифи- 


[* у и 
катора и ЕМТГ Е +1<5. На рис. 8 представлена зависимость доверительной вероят- 


[* 
ности от размера класса и значения ЕМТ Е +1. Размер класса периодически увели- 


чивался, и также периодически формировалась переменная последовательность об- 
разов своего класса. Общая последовательность представлена одной из координат, а 


и [* 
второй — значение ЕМТ 5 +1. Зависимости на рис. 9 построены для таких случаев: 


ЕМТ () +1 = {1,3,5,7,9,11,13,15,17}. Вероятность правильного распознавания будет 


тем больше, чем меньше последовательность образов чужих классов и больше раз- 


ница между вмт(* + и5’. 
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Рисунок 9 — Вероятность правильного распознавания как функция ЕМТ |] +1 (ось х) 


и общей последовательности образов своего и чужих и классов (ось у) 


Выводы 


На основании комбинаторного подхода можно анализировать и оптимизиро- 
вать АММ классификатор. Подход даёт возможность определять соотношение между 


оптимальным значением К ближайших соседей и пониженным размером класса 5”. 
Это соотношение зависит от результатов распознавания на начальных (несжатых) 
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классах. Подход также даёт дополнительную информацию о составе обучающей вы- 
борки и степени её корректности для того, чтобы в дальнейшем использовать эту ин- 
формацию при минимизации процесса переобучения и максимизации вероятности 
правильного распознавания. 
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Б.О. Капуспий, В.А. Таянов 

Вплив розмфу навчаючо! вибрки на узагальнюючу властивсть метричних алгоритм класифкаци 
В робот! пропонуеться шджд, який забезпечуе ощнку впливу зменшення розмру класйв бази даних на рвень 
розшзнавання при застосуванн! АММ метричних класиф!катор\в, а також дае можлив1сть визначення на 
дашй виб1рц! оптимального значення К. Проведене симулятивне моделювання результат1в впливу 
зменшення навчаючо! виб1рки на результати розшзнавання. Отриманн! результати можуть бути 
використан! для подальшого формування навчаючо! виб1рки та Й корекци. 


В.О. Каризцйу, Г.А. Тауапоу 

Тре шйЙиепсе о{ Пе Тгайиие Зе $12е оп Фе СепегаН7ед АБШИу оЁ Фе Мейлса! Саз$1ет$ 

1 15 рарег Ше арргоасВ туш фе езитае оЁ Пе с1аз$ 517е гедасйоп шНиепсе оп Фе гесост1 оп гаёе Юг 
фе АММ аззегз Ваз Бееп ргорозеа. ТБе арргоасВ а]50 этуез пе роз ПиИу {1ю езита{е Фе орйта! А уаме 
оЁ фе пеагезё пеоБочгз. ТВе зпащайуе то4деНп» оЁ Фе наше её гефдасйоп шЙчепсе оп фе гесорт оп 
ргосез$ гези&5 Ваз Бееп сагле4 опё. Тре оМате4 гези!5 сап Бе изе4 ог фе гаште зеё Ююгтайоп ап4 1$ 
согтесйоп. 
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